INFORMATIQUE - Informatique et sciences de la vie


INFORMATIQUE - Informatique et sciences de la vie
INFORMATIQUE - Informatique et sciences de la vie

Les moyens de l’informatique ont considérablement progressé, non seulement par l’ampleur des données ou des problèmes qu’ils permettent de traiter, mais aussi par les facilités d’accès et de programmation; de plus le coût, à performances égales, a diminué, ce qui est assez rare pour être souligné. Les minicalculatrices que les techniciens, ingénieurs, chercheurs, commerçants, employés de bureau, étudiants ont dans leur poche sont à la fois plus répandues et plus performantes que la traditionnelle règle à calcul. Il est certain qu’en biologie d’innombrables questions qu’on ne se posait même pas, ou qui n’étaient pas techniquement abordables, relèvent maintenant de démarches courantes, autant dans la pratique que dans la recherche.

L’informatique est devenue indispensable aux développements modernes de l’astronomie, de la physique nucléaire, des sciences spatiales; mais elle constitue une discipline clé pour les sciences biologiques et leurs grands domaines d’application, l’agronomie et la médecine.

L’informatique envahit pratiquement tous les domaines d’activité, y compris ceux ayant des relations avec la biologie. Du laboratoire d’analyses médicales à la coopérative agricole, de la fabrication de produits diététiques au contrôle des vaccins, du cubage des bois à la gestion de la faune cynégétique, de la sélection des animaux domestiques à la mise au point d’un insecticide, tous les techniciens impliqués dans ces domaines rendent plus rapides et plus sûrs leurs calculs, et surtout n’hésitent plus à les faire. La quantification est à la portée de tous, mais aussi la transmission rapide d’une information et, bien entendu, sa prise en compte dans les décisions d’organisation.

Données conceptuelles

Les moyens de l’informatique autorisent, pour ne pas dire induisent, de nouvelles approches, de nouveaux modes de pensée. En effet, la pauvreté des moyens de calcul ne permettait jusqu’à présent que des schémas simplistes de travail; même récemment, la réalité était au mieux explorée grâce à ce qu’on appelle des plans expérimentaux, et seules les données obtenues de cette manière étaient susceptibles d’interprétation; il s’agissait cependant d’un immense progrès dans la rigueur de l’acquisition des données et la confiance à accorder aux conclusions. Mais le fait même que l’expérimentateur devait se conformer de façon étroite aux contraintes de ces plans limitait leur champ d’application et interdisait même la prise en considération de certaines hypothèses. Ces modalités de travail ont cependant rendu et rendent toujours des services inestimables, en particulier en agronomie où l’on est maître au moins de la disposition spatiale des végétaux que l’on plante; en vue, par exemple, de comparer les mérites de plusieurs variétés, on peut projeter sur le terrain des dispositifs factoriels de blocs, de carrés latins, etc., dont les résultats seront statistiquement interprétables et conduiront à des calculs relativement simples.

Mais la réalité est beaucoup plus complexe que cela. Aucun phénomène biologique n’a qu’une seule cause, aucun n’a qu’un seul effet. Il faut donc s’habituer à raisonner dans un univers multivarié, où règnent de nombreuses variables et leurs interactions d’ordres divers; il faut aussi pouvoir explorer ce monde difficile et agir éventuellement sur lui. Au-delà de trois dimensions, notre esprit ne formule plus aucune représentation concrète et ne peut s’appuyer sur des intuitions géométriques; seuls les calculs nous renseignent, en devenant malheureusement vite pénibles, fastidieux et démesurément longs; sans machines à calculer, il n’y aurait dans cette direction aucun espoir de réussite.

Or, précisément, la biologie d’aujourd’hui accepte d’analyser des situations complexes, telles qu’elles sont dans la réalité (ou presque), et d’étudier simultanément plusieurs variables et plusieurs facteurs de variations. Ce qu’on appelle souvent analyse des données relève de cette volonté de ne pas imposer de normes préalables (en tout cas le moins possible) et de traiter les données telles qu’elles résultent de l’observation ou de l’expérimentation. C’est pourquoi à la statistique fishérienne et à sa logique s’ajoute aujourd’hui une stratégie toute différente d’interprétation où la statistique classique, déjà élargie à la statistique non paramétrique, intervient de concert avec l’analyse combinatoire, l’analyse numérique, l’algèbre, etc., et où s’épanouit la méthode des modèles.

On sait que les problèmes de la biologie peuvent être abordés essentiellement à trois niveaux: celui des populations, celui des organismes, celui des mécanismes cellulaires et moléculaires. Chronologiquement, l’usage des moyens informatiques s’est placé d’abord de façon privilégiée au niveau le plus élevé du fait du développement de l’écologie (aussi y puiserons-nous des exemples); mais, compte tenu des résultats les plus récents, on constate que l’informatique s’installe jusqu’aux niveaux les plus fins de la biologie moléculaire et de la biochimie. C’est l’outil informatique qui a permis dans ces derniers domaines de réaliser de gigantesques progrès dans l’analyse des génomes et dans le «design» moléculaire, avec les retombées pratiques que cela implique en médecine et en biotechnologie. Le lecteur devra se reporter aux articles HOMME - Génome humain et PHARMACOCHIMIE, pour trouver cette information.

L’analyse des situations

L’acceptation de situations complexes en tant qu’objets d’analyse rend nécessaire une étape préalable de réflexion, de recherches préliminaires, de définition du domaine d’étude, de choix des variables retenues et des facteurs à contrôler. Il s’agit d’un effort logique en amont de tout travail systématique, qui exige, outre des connaissances techniques, de l’expérience et la culture générale la plus étendue possible. L’équipe chargée de ce travail devrait toujours compter une ou deux personnes qui ne soient pas des débutants.

Par exemple, l’attaque des problèmes posés par une épidémie dans l’espèce humaine, considérée maintenant comme celle d’une situation écologique, exige de savoir quel est l’agent pathogène, son cycle, ses rapports avec l’hôte, quelles en sont les interactions possibles avec les facteurs du milieu (entre autres climatiques), mais aussi de connaître les caractéristiques biologiques de la population humaine concernée, son comportement, ses habitudes alimentaires, son arsenal thérapeutique, et enfin les conditions socio-économiques dans lesquelles s’inscrivent tous ces phénomènes et par lesquelles ils sont peut-être modifiés.

L’inventaire de telles situations est le plus souvent décevant car la liste des variables à contrôler, des facteurs en jeu, est désespérément longue, bien que sûrement incomplète. Il faut alors procéder à des choix, c’est-à-dire des hypothèses simplificatrices. On se limite délibérément, pour des raisons pratiques de faisabilité et aussi pour des raisons objectives d’importance relative, à un nombre restreint d’éléments et de relations entre ces éléments.

L’acquisition des données

L’acquisition des données pose toujours des problèmes difficiles, que ce soit au laboratoire ou dans la nature, parce qu’on peut hésiter sur la manière la plus valable de la faire, mais aussi parce que des modalités dépendront les facilités de calcul et la qualité de l’interprétation.

Il faut mettre à part les observations qui résultent de circonstances qui nous sont offertes et non d’un plan ou d’une action expérimentale. Cette catégorie de données n’est pas si exceptionnelle qu’on pourrait le croire: tornades, séismes, inondations, etc., mais aussi construction d’une autoroute, d’un barrage, etc. fournissent autant d’occasions d’obtenir des informations d’autant plus précieuses qu’elles correspondent à des situations qu’on n’aurait pas pu provoquer. Par exemple, un printemps froid qui retarde la sortie des insectes et fait mourir de faim les martinets (qui auraient dû s’en nourrir) permet de mieux comprendre la dynamique de populations de cette espèce, ses contraintes, ses faiblesses. Par exemple, encore, la désertification d’une île par une éruption volcanique permet d’étudier les étapes de sa colonisation.

Dans tous les cas, le problème clé est celui de l’échantillonnage. Il relève toujours d’un modèle et reste par conséquent relatif à un objectif. Des erreurs faites à ce niveau sont irréparables, quel que soit le coût expérimental consenti. Par contre, le système d’échantillonnage choisi doit être, sur le terrain, appliqué les yeux fermés. Donnons deux exemples simples qui permettent de soulever quelques problèmes. Supposons que l’on veuille étudier un phénomène en fonction du temps et qu’un enregistrement continu ne puisse être fait; la question des moments de mesure se pose; l’idée la plus simple, qui consiste à espacer de façon régulière les mesures (tous les matins à 8 h, par exemple) et qui a malheureusement été souvent suivie pour des raisons évidentes de commodité, peut conduire à des erreurs graves: si le phénomène étudié admet une périodicité de 24 heures, celle-ci ne pourra évidemment être mise en évidence par un recueil de données de même périodicité, et on conclura, de manière erronée, à la constance du phénomène.

Dans le domaine spatial, l’une des difficultés majeures est celle de l’échelle. Supposons que l’on désire étudier la répartition d’une espèce végétale (ou de plusieurs) le long d’un chemin ou le long d’un transect imaginaire tracé sur une carte. On ne va pas repérer et dénombrer de façon exhaustive toutes les plantes rencontrées. Mais quel doit être le rythme de l’échantillonnage: tous les décimètres, tous les mètres, tous les kilomètres? Il arrive souvent, malgré des renseignements préliminaires, qu’on ne puisse déterminer a priori le bon choix, c’est-à-dire celui qui permette la mise en évidence de structures (d’agrégations, par exemple). On adoptera un échantillonnage systématique permettant ensuite des regroupements de données et la recherche de l’échelle intéressante.

On ne soulignera jamais assez l’importance de l’échantillonnage. C’est à son niveau qu’on se trompe (beaucoup plus que dans les calculs ultérieurs) ou que l’on passe à côté des phénomènes importants. Chacun sait que, dans des domaines extrascientifiques, lorsqu’on veut faire dire aux statistiques ce que l’on souhaite qu’elles disent, il suffit d’agir au niveau de l’échantillonnage.

La collecte des données proprement dite fait souvent appel à des dispositifs électroniques et à des méthodes informatisées, par exemple dans le cas d’un programme complexe de mesures: plusieurs variables simultanées, rythmes variables en fonction du temps, etc. En effet, la collecte simple et manuelle n’est pas toujours possible, soit à cause de son caractère répétitif (expériences longues, jour et nuit), soit à cause des conditions difficiles (bioclimatiques en haute montagne). Dans tous les cas, la chasse aux erreurs et la recherche de standardisation des mesures seront des soucis permanents.

L’enregistrement et le stockage des données ne sont pas des problèmes mineurs. Le choix d’un support informatique adéquat (bandes perforées ou magnétiques, disques, etc.) peut faire gagner beaucoup de temps et diminuer le coût du traitement. On évitera pour les mêmes raisons les transferts de support et les reports manuels. On ne négligera, dans la mise au point de ces procédures, ni les possibilités de vérification, ni la souplesse d’utilisation.

Il faut enfin souligner l’extrême importance des banques de données dans bien des chapitres de la biologie; le stockage systématique de certains renseignements concernant les ressources naturelles renouvelables revêt un grand intérêt scientifique et économique; la gestion rationnelle de ces richesses naturelles passe par ces inventaires et par leur traitement. La généralisation des banques ou bases de données où l’on peut corriger et mettre à jour les informations qui y sont contenues s’est faite grâce au développement de l’informatique documentaire; elles ont posé quelques problèmes en matière de droit international et de déontologie scientifique.

Le traitement des données

Il n’y a évidemment pas de recette miracle et il est important de démystifier le pouvoir miraculeux de l’ordinateur, qui n’aurait qu’à ingérer des données pour sortir quelques secondes plus tard des conclusions mirifiques. Ce n’est pas seulement faux du fait qu’un ordinateur ne fonctionne pas sans programme, mais parce que ce programme ne fait qu’exprimer, dans un langage compréhensible pour la machine, le résultat de réflexions, de calculs, de travaux préliminaires, sans parler du travail de mise au point et d’optimisation de ce programme lui-même. L’utilisation de l’ordinateur dans la recherche biologique n’est ni un travail de routine ni un jeu. Toute déviation dans l’un ou l’autre sens est sanctionnée par l’inefficacité et le gaspillage.

Par ailleurs, tout traitement brutal des données est voué aux pires ennuis, si ce n’est aux erreurs grossières. Une approche intuitive des données, géométrique quand c’est possible, le tracé de quelques graphes, l’évaluation d’ordres de grandeur, la détermination de quelques relations partielles doivent toujours être tentés avant la mise en route d’un traitement lourd et systématique. L’usage de moyens de calculs puissants ne dispense pas de rester maître de ces calculs et d’en contrôler le déroulement.

Un des types de calcul les plus fréquents concerne évidemment la recherche et l’évolution des relations entre variables. Les programmes de corrélation et de covariance, de régression linéaire ou logarithmique, sont très utilisés et font partie intégrante du logiciel. Ils s’appliquent à des ensembles de variables, considérés deux à deux, si bien que les résultats se présentent sous forme de matrices.

Mais la considération de données structurées en tableaux (multiplicité des variables et des facteurs) conduit à rechercher des interprétations globales. Les diverses méthodes d’analyse multivariée (analyses en composantes principales, analyse factorielle des correspondances, analyse discriminante) ont pour but de nous éclairer sur la structure de la population étudiée, sur l’existence de gradients, de similitudes entre groupes... Il est évidemment exclu, en phytosociologie par exemple, que des tableaux comportant des dizaines de lignes et de colonnes, ou des transects sur lesquels des centaines de relevés mentionnant eux-mêmes des dizaines d’espèces végétales ont été effectués, soient l’objet d’un traitement manuel.

En résumé, on peut dire que l’informatique nous aide à découvrir et à exprimer, parfois de façon graphique, des structures, des relations qui n’avaient dans les situations biologiques proposées aucun caractère d’évidence. Ce pas, à la fois méthodologique et technique, rend solubles toute une série de problèmes; il permet d’extraire une information interprétable de corps de données qui autrement resteraient parfaitement obscurs.

La modélisation des systèmes

Avoir un point de vue systématique, c’est admettre une série de relations entre éléments composant une situation; et définir un système, c’est à la fois limiter le champ et en extraire un ensemble cohérent. Mais un système n’est jamais quelque chose de statique, si bien que, au-delà de sa description, le plus intéressant est évidemment l’étude de son fonctionnement et de sa dynamique. Parmi les systèmes biologiques, ceux qui ont été de beaucoup les plus étudiés au cours de ces dernières années sont les écosystèmes.

Par exemple, le vaste projet de Fort Collins (Colorado), commencé sous les auspices du Programme biologique international (P.B.I.), avait pour but d’analyser le plus complètement possible le fonctionnement d’une prairie: soixante-dix chercheurs y ont apporté leur contribution, pendant des années et avec des moyens considérables. D’innombrables facteurs ont été pris en compte; les uns physiques (eau et chaleur, sous toutes leurs formes), d’autres chimiques (avec les éléments nutritifs, en particulier ceux à base d’azote ou de phosphore), d’autres biologiques avec la production primaire, ses décomposeurs, ses consommateurs, et enfin tous les aspects énergétiques. Des centaines de variables ont été isolées, étudiées en fonction du temps, et en fonction de facteurs apparemment les plus influents. Des dizaines de relations ont été découvertes et exprimées sous forme analytique. Enfin, une simulation générale a été tentée. Malgré ces efforts, bien des problèmes ne sont pas élucidés, comme les interactions entre la prairie et les animaux domestiques qui la consomment, selon les modalités de gestion de l’élevage et du pâturage.

Ces recherches et bien d’autres qui ont suivi ont une philosophie commune:

– ces systèmes biologiques sont très complexes, mais peuvent maintenant être l’objet d’une approche scientifique, grâce aux progrès réalisés dans le domaine expérimental et grâce à l’usage des moyens informatiques; ils ne sont pas chaotiques, ils ont une cohérence interne, une organisation, elle-même susceptible de description;

– ces systèmes peuvent être explorés et décrits mathématiquement, et leurs changements peuvent aussi, sous une forme déterministe ou stochastique, être exprimés mathématiquement, si bien que la connaissance d’un système à un moment donné est une base sérieuse pour sa connaissance à un autre moment; on peut même parler de prédiction dans les meilleurs cas.

Les plus grands projets d’étude de systèmes écologiques, comme ceux retenus dans les années quatre-vingt par le programme international Man and Biosphere (M.A.B.) – qui a succédé au P.B.I. –, étaient à la limite des moyens matériels mobilisables: la forêt tropicale, les deltas, les établissements humains constituent des situations extraordinairement complexes où l’on a pu utiliser la modélisation des phénomène écologiques. Mais rien n’empêche de définir des sous-systèmes (définis sur des bases spatiales, spécifiques, etc.), abordables dans l’état actuel de nos connaissances, et dont l’assemblage ultérieur pourra constituer une approche du système total auquel ils appartenaient. Dans cette perspective, toutes les études de dynamique de populations, si elles sont solidement reliées au milieu, ont un intérêt qui dépasse largement l’espèce sur laquelle elles portent. Et de ce point de vue des progrès très significatifs ont été faits, d’une part au niveau des espèces maintenant mieux connues (quelques oiseaux, poissons, petits mammifères), d’autre part sur les modèles eux-mêmes; on a sorti d’abord des modèles simplistes (exponentiel, logistique) puis des modèles beaucoup plus élaborés (au premier rang desquels ceux de Lotka, de Volterra et de Kostitzin qui rendent compte d’hypothèses plus nombreuses et plus proches des conditions de la réalité).

«Faire tourner un modèle», c’est être capable de simuler le fonctionnement d’un système de telle manière que ses produits soient vraisemblables, en accord avec la réalité, dans le cadre de la durée de fonctionnement admise, c’est-à-dire celle pendant laquelle les hypothèses restent valables. Il est clair que, si on obtient ce succès, on a de solides présomptions d’explications quant aux mécanismes du système réel. On comprend bien dès lors le rôle exploratoire des modèles.

Les propriétés des systèmes

L’étude des systèmes biologiques, tels les écosystèmes, pose des problèmes très intéressants, qui relèvent d’ailleurs de l’analyse des systèmes en général et qui sont loin d’être résolus. Nous nous limiterons à quelques remarques.

Il faut rappeler le caractère de complexité des systèmes biologiques. On peut s’en rendre compte aisément, presque intuitivement, par les difficultés qu’on a à les comprendre. Mais la mesure de la complexité reste une question mal résolue: comment peut-on affirmer que tel système est plus complexe que tel autre? La notion de quantité d’information, issue de la physique, si elle a rendu de grands services dans certains chapitres de la biologie, est cependant loin de répondre à nos espoirs.

En fait, le concept de complexité est inséparable d’après nous de celui d’organisation; dans ce domaine, les idées et les faits sont sans doute plus clairs. On est bien persuadé maintenant de l’existence d’une organisation dans tout le monde vivant et à tous les niveaux auxquels on peut l’approcher. Il n’y a pas une organisation d’ailleurs, mais des réseaux de relations et de structures qui s’articulent les uns avec les autres. Aucun changement dans l’un n’est possible s’il n’est au moins compatible avec les autres. Tous les résultats récents, que ce soit au niveau moléculaire, subcellulaire et cellulaire ou au niveau des populations, nous font toujours découvrir des mécanismes supplémentaires, des régulations plus fines, des relations imprévues. Tout va dans le sens de l’organisation, quitte à ce que celle-ci ne soit pas celle que nous avions imaginée! Et le flou momentané dans un domaine n’a jamais été jusqu’à présent que l’image de notre ignorance, et non pas celle de la non-organisation.

Il est d’autant plus admirable de constater la pérennité des systèmes biologiques, et on peut s’interroger en même temps sur leur stabilité. Dans un premier temps, on a considéré comme stables des systèmes dont les caractéristiques numériques restaient à peu près constantes; par exemple, une population qui garderait le même nombre d’individus serait stable. Cette façon de voir les choses s’est révélée simpliste et assez éloignée de la réalité. Dans la nature, certaines populations voient leurs effectifs varier de façon considérable, si bien que ce qui est stable, c’est leur existence et celle de relations entre elles et avec le milieu. Ce nouveau concept de stabilité, plus structurel, a été nommé résilience par Holling.

On a découvert aussi, au moins dans certaines situations, des états d’équilibre et on a appris que les variations pouvaient être importantes sans entraîner de catastrophes, tant que le retour à ces états d’équilibre était assuré. Par exemple, dans de nombreuses régions tempérées, le défrichement n’a pas empêché, après abandon des cultures, le retour à la forêt-climax, et l’on a été capable d’étudier le détail des processus qui y conduisent (grâce une fois de plus à la méthode des modèles et à l’informatique). Mais si l’on dépasse certaines limites (plus rapidement franchies, dans des conditions géographiques et écologiques qu’on peut préciser), on ne revient pas à l’état d’équilibre initial; on évolue vers un autre état d’équilibre, et c’est le processus de désertification dans le cas de l’exemple choisi.

Ainsi, la variabilité du monde vivant n’est pas le chaos; on la sent liée au milieu physique, au climat, à sa propre histoire; on parle alors de diversité, d’adaptation. Les variations les plus fines suivent elles-mêmes des lois complexes, et c’est leur exploration qui constitue le champ habituel de la science. Mais ces variations ne sont pas isolées, indépendantes; elles sont celles des éléments d’un système et c’est leur approche multiple et simultanée qui rend maintenant nécessaire l’usage des moyens informatiques comme outils de la recherche, tant au niveau technique que méthodologique.

Encyclopédie Universelle. 2012.


Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”

We are using cookies for the best presentation of our site. Continuing to use this site, you agree with this.